% Version control information:
%$HeadURL: http://practicas-r.googlecode.com/svn/trunk/anova_2_factores/anova_2_factores.tex $
%$LastChangedDate: 2011-12-05 13:06:12 +0000 (Mon, 05 Dec 2011) $
%$LastChangedRevision: 19 $
%$LastChangedBy: asalber $
%$Id: anova_2_factores.tex 19 2011-12-05 13:06:12Z asalber $

\chapter[ANOVA de múltiples factores y medidas repetidas]{ANOVA de Múltiples Factores y ANOVA de Medidas Repetidas}

\medskip
\section{Fundamentos teóricos}
Como ya se vio en una práctica anterior, el \emph{Análisis de la Varianza de un Factor}, \emph{ANOVA} o también \emph{ANOVA de una Vía}, es
una técnica estadística de contraste de hipótesis cuyo propósito es estudiar el efecto de la aplicación de varios \emph{niveles} (también
llamados \emph{tratamientos}) de una variable aleatoria cualitativa, llamada \emph{factor} o \emph{vía}, en una variable cuantitativa,
llamada \emph{respuesta}. Si se supone que la variable cualitativa independiente, es decir el factor, presenta $k$ niveles diferentes,
entonces para comparar las $k$ medias de la variable respuesta según los diferentes niveles del factor se realiza un contraste de hipótesis,
cuya hipótesis nula, $H_0$, es que la variable respuesta tiene igual media en todos los niveles, mientras que la hipótesis alternativa,
$H_1$, es que hay diferencias estadísticamente significativas en al menos dos de las medias. Dicho contraste de hipótesis se basa en la
comparación de dos estimadores de la varianza total de los datos de la variable respuesta; de ahí procede el nombre de esta técnica:
\emph{ANOVA} (Analysis of Variance).
No obstante, en muchos problemas aparece no ya un único factor que permite clasificar los individuos de la muestra en $k$ diferentes
niveles, sino que pueden presentarse dos o más factores que permiten clasificar a los individuos de la muestra en múltiples grupos según
diferentes criterios, que se pueden analizar para ver si hay o no diferencias significativas entre las medias de la variable respuesta. Para
tratar con este tipo de problemas surge el \emph{ANOVA Múltiples Factores} (o también \emph{ANOVA de Varias Vías}) como una
generalización del proceso de un factor, que además de permitir el análisis de la influencia de cada uno de los factores por separado
también hace posible el estudio de la \emph{interacción} entre ellos.

Por otra parte, también son frecuentes los problemas en los que se toma más de una medida de una variable cuantitativa (respuesta) en cada
sujeto de la muestra, y se procede al análisis de las diferencias entre las diferentes medidas. Si sólo se toman dos, el procedimiento
adecuado es la T de Student de datos pareados, o su correspondiente no paramétrico, el test de Wilcoxon; pero si se han tomado tres o más
medidas, el test paramétrico correspondiente a la T de Student de datos pareados es el \emph{ANOVA de Medidas Repetidas}.

Incluso también se puede dar el caso de un problema en el que se analice una misma variable cuantitativa medida en varias ocasiones en cada
sujeto de la muestra pero teniendo en cuenta a la vez la influencia de uno, dos o más factores que permiten clasificar a los individuos en
varios subgrupos diferentes. En definitiva, pueden aparecer problemas donde a la par que un ANOVA de medidas repetidas se requiera realizar
un ANOVA de dos o más vías.

Por último, la situación más compleja que se puede plantear en el análisis de una respuesta cuantitativa se presenta cuando, añadida a
medidas repetidas y dos o más vías o factores de clasificación, se tienen una o más variables cuantitativas, llamadas \emph{Covariables},
que se piensa que pueden influir en la variable respuesta. Se procede entonces a realizar un \emph{ANCOVA} o \emph{Análisis de Covarianza},
con el que se pretende analizar la influencia de los factores y también ver si hay diferencias entre las medidas repetidas pero habiendo
eliminado previamente la influencia (variabilidad) debida a la presencia de las covariables que se pretenden controlar.

\subsection{ANOVA de múltiples factores}
\subsubsection{ANOVA de dos factores con dos niveles cada factor}
Para entender qué es un ANOVA de múltiples factores, conviene partir de un caso sencillo con dos factores y dos niveles en cada factor. Por
ejemplo, se puede plantear un experimento con individuos que siguen o no una dieta (primer factor: dieta, con dos niveles: sí y no), y que a
su vez toman o no un determinado fármaco (segundo factor: fármaco, con dos niveles: sí y no) para reducir su peso corporal (variable
respuesta numérica: reducción del peso corporal expresada en Kg). En esta situación, se generan cuatro grupos diferentes: los que no hacen
dieta ni toman fármaco (No-No), los que no hacen dieta pero sí toman fármaco (No-Sí), los que hacen dieta y no toman fármaco (Sí-No), y los
que hacen dieta y toman fármaco (Sí-Sí). Y se pueden plantear tres efectos diferentes:

\begin{itemize}
\item El de la dieta: viendo si hay o no diferencias significativas en los Kg perdidos entre los individuos que la han seguido y los que no.
\item El del fármaco: viendo si hay o no diferencias significativas en los Kg perdidos entre los individuos que lo han tomado y los que no.
\item El de la interacción: viendo si el efecto combinado de dieta y fármaco es diferente del que tendrían sumando sus efectos por separado,
y entonces se diría que sí que hay interacción; o si por el contrario el efecto de la combinación de dieta y fármaco es el mismo que la suma
de los efectos por separado, y entonces se diría que no hay interacción. A su vez, si hay interacción se puede dar en dos sentidos: si la
combinación de dieta y fármaco ha hecho perder más kilos a los pacientes de los que cabría esperar con la suma de dieta y fármaco por
separado, entonces la interacción de ambos factores ha actuado en sinergia con los mismos, mientras que si la combinación ha hecho perder
menos kilos de los que cabría esperar con dieta y fármaco por separado, entonces la interacción ha actuado en antagonismo con ambos.
\end{itemize}

Siguiendo con el ejemplo, supongamos que la tabla que aparece a continuación refleja la media de Kg perdidos dentro de cada uno de los
grupos comentados. Por simplificar el ejemplo, no se reflejan los Kg en cada individuo con la consiguiente variabilidad de los mismos, pero
el ANOVA de dos vías sí que tendría en cuenta esa variabilidad para poder hacer inferencia estadística, plantear contrastes de hipótesis y
calcular sus correspondientes p-valores.
\begin{center}
\begin{tabular}{|l|c|c|}
\cline{2-3}
\multicolumn{1}{c|}{} & Fármaco No & Fármaco Sí \\
\hline
Dieta No & 0 & 5 \\
\hline
Dieta Sí & 3 & 8 \\
\hline
\end{tabular}
\end{center}

Si los resultados obtenidos fuesen los de la tabla anterior, se diría que no hay interacción entre fármaco y dieta, ya que el efecto del
fármaco en el grupo de los que no hacen dieta ha hecho perder 5 Kg en media a los individuos, el efecto de la dieta en el grupo de los que
no toman fármaco les ha hecho perder 3 Kg en media, y el efecto combinado de dieta y fármaco ha hecho perder 8 Kg con respecto a los que no
hacen dieta y tampoco toman fármaco. Estos 8 Kg son iguales a la suma de 3 y 5, es decir iguales a la suma de los efectos de los factores
por separado, sin ningún tipo de interacción (de término añadido) que cambie el resultado de la suma.

Con las medias de los cuatro grupos que se generan en el cruce de los dos factores, cada uno con dos niveles ($2\times2$), se representan
los gráficos de medias que aparecen más adelante. En estos gráficos, cuando no hay interacción las rectas que unen las medias correspondientes a
un mismo nivel de uno de los factores son paralelas dentro de cierto margen de variabilidad.
\begin{figure}[h!]
\begin{center}
\scalebox{0.8}{\input{anova_2_factores/img/medias_sin_interaccion}}
\caption{Gráfico de medias de dos factores sin interacción}
\end{center}
\end{figure}

Por el contrario, también podría obtenerse una tabla en la que la suma de los efectos por separado fuese menor que el efecto combinado de dieta y fármaco:

\begin{center}
\begin{tabular}{|l|c|c|}
\cline{2-3}
\multicolumn{1}{c|}{} & Fármaco No & Fármaco Sí \\
\hline
Dieta No & 0 & 5 \\
\hline
Dieta Sí & 3 & 12 \\
\hline
\end{tabular}
\end{center}

En este caso, dejando al margen las variabilidad dentro de cada uno de los grupos y suponiendo que la misma es lo suficientemente pequeña
como para que las diferencias sean significativas, los 8 Kg en media que se perderían al sumar los efectos por separado de dieta y fármaco
son menores que los 12 que, en media, han perdido los individuos que han tomado el fármaco y han seguido la dieta a la vez. Por lo tanto, se
ha producido una interacción de los dos factores que, al unirlos, ha servido para potenciar sus efectos por separado. Dicho de otra forma,
para explicar el resultado final de los individuos que han tomado el fármaco y también han seguido la dieta habría que introducir un nuevo
término en la suma, el término de interacción, que contribuiría con 4 Kg de pérdida añadidos a los 8 Kg que se perderían considerando
simplemente la suma de dieta y fármaco. Como este nuevo término contribuye a aumentar la pérdida que se obtendría al sumar los efectos por
separado de ambos factores, se trataría de un caso de interacción en sinergia con los dos factores de partida.
\begin{figure}[h!]
\begin{center}
\scalebox{0.8}{\input{anova_2_factores/img/medias_con_interaccion_sinergica}}
\caption{Gráfico de medias de dos factores con interacción sinérgica.}
\end{center}
\end{figure}

Por último, también se podría obtener una tabla en la que la suma de los efectos por separado fuese mayor que el efecto combinado de los dos
factores:
\begin{center}
\begin{tabular}{|l|c|c|}
\cline{2-3}
\multicolumn{1}{c|}{} & Fármaco No & Fármaco Sí \\
\hline
Dieta No & 0 & 5 \\
\hline
Dieta Sí & 3 & 4 \\
\hline
\end{tabular}
\end{center}

Igualmente, en este nuevo ejemplo los 8 Kg en media que se perderían al sumar los efectos por separado de los dos factores son mayores que
los 4 que en realidad pierden, en media, los individuos que han seguido la dieta y utilizado el fármaco. Por lo tanto, para explicar el
resultado obtenido en el grupo de los que toman el fármaco y siguen la dieta habría que introducir un término añadido a la suma de efectos
sin más, que se restaría a los 8 Kg hasta dejarlos en 4 Kg. Se trataría de un caso de interacción en antagonismo con los dos factores de
partida.
\begin{figure}[h!]
\begin{center}
\scalebox{0.8}{\input{anova_2_factores/img/medias_con_interaccion_antagonica}}
\caption{Gráfico de medias de dos factores con interacción antagónica.}
\end{center}
\end{figure}

En realidad, la interacción también puede producirse en sinergia con uno de los factores y en antagonismo con el otro, ya que a veces los
dos factores pueden producir un efecto con signo contrario. Por ejemplo, al hablar del factor dieta, se tiende a pensar que se trata de una
dieta que sirve para bajar el peso, pero también cabe plantearse un experimento con personas que siguen una dieta de alto contenido calórico
que en principio debería hacerles subir peso y ver qué evolución siguen cuando a la vez toman un fármaco para bajarlo.

Como puede deducirse fácilmente de las tablas y gráficas anteriores, la presencia de interacción implica que la diferencia entre las medias
de los dos grupos dentro de un mismo nivel de uno de los factores no es la misma que para el otro nivel. Por ejemplo, en la segunda tabla,
la diferencia entre las medias de Kg perdidos entre los que sí que toman el fármaco y los que no lo toman vale: 5-0=5 Kg en los que no hacen
dieta, y 12-3=9 Kg en los que sí que hacen dieta. Lo cual gráficamente se traduce en que la pendiente de la recta que une las medias dentro
del grupo de los que sí que toman el fármaco es diferente de la pendiente que une las medias dentro del grupo de los que no lo toman. En las
ideas anteriores se basará el planteamiento del contraste de hipótesis para ver si la interacción ha resultado o no significativa.

Como ya se ha comentado, en cualquiera de las tablas anteriores se podrían analizar tres efectos diferentes: el de la dieta, el del fármaco
y el de la interacción de dieta con fármaco; lo cual, en términos matemáticos, se traduce en tres contrastes de hipótesis diferentes:
\begin{enumerate}

\item Efecto de la dieta sobre la cantidad de peso perdido:
\begin{align*}
H_0&: \mu_{\text{con dieta}}=\mu_{\text{sin dieta}}\\
H_1&: \mu_{\text{con dieta}}\neq\mu_{\text{sin dieta}}
\end{align*}
\item Efecto del fármaco sobre la cantidad de peso perdido:
\begin{align*}
H_0&: \mu_{\text{con fármaco}}=\mu_{\text{sin fármaco}}\\
H_1&: \mu_{\text{con fármaco}}\neq\mu_{\text{sin fármaco}}
\end{align*}
\item Efecto de la interacción entre dieta y fármaco, que a su vez se puede plantear de dos formas equivalentes:

\begin{enumerate}
\item Viendo si dentro dentro de los grupos definidos en función de la dieta la diferencia de Kg perdidos entre los que toman fármaco y los que no lo toman es la misma:
\begin{align*}
H_0&: (\mu_{\text{con fármaco}}-\mu_{\text{sin fármaco}})_{\text{sin dieta}}=(\mu_{\text{con fármaco}}-\mu_{\text{sin fármaco}})_{\text{con
dieta}}\\
H_1&: (\mu_{\text{con fármaco}}-\mu_{\text{sin fármaco}})_{\text{sin dieta}}\neq(\mu_{\text{con fármaco}}-\mu_{\text{sin
fármaco}})_{\text{con dieta}}
\end{align*}
\item Viendo si dentro de los grupos definidos en función del fármaco la diferencia de Kg perdidos entre los que hacen dieta y los que no la hacen es la misma:
\begin{align*}
H_0&: (\mu_{\text{con dieta}}-\mu_{\text{sin dieta}})_{\text{sin fármaco}}=(\mu_{\text{con dieta}}-\mu_{\text{sin dieta}})_{\text{con
fármaco}}\\ 
H_1&: (\mu_{\text{con dieta}}-\mu_{\text{sin dieta}})_{\text{sin fármaco}}\neq(\mu_{\text{con dieta}}-\mu_{\text{sin
dieta}})_{\text{con fármaco}}
\end{align*}
\end{enumerate}
\end{enumerate}

Aunque los detalles matemáticos más precisos sobre cómo el ANOVA de dos o más vías da respuesta a los contrastes expuestos quedan fuera del
nivel de esta práctica, la idea general es sencilla y muy parecida a la explicada con más detalle en la práctica de ANOVA de una vía.  En el
ANOVA de una vía, la variabilidad total de los datos, expresada como suma de distancias al cuadrado con respecto a la media global (llamada
Suma de Cuadrados Total), se descompone en dos diferentes fuentes de variabilidad: las distancias al cuadrado de los datos de cada grupo con
respecto a la media del grupo, \emph{Suma de Cuadrados Intra}, más las distancias al cuadrado entre las diferentes medias de los grupos y la
media general, \emph{Suma de Cuadrados Inter}. La suma de cuadrados intra-grupos es también llamada \emph{Variabilidad Residual} o
\emph{Suma de Cuadrados Residual}, ya que su cuantía es una medida de la dispersión residual, remanente incluso después de haber dividido
los datos en grupos. Estas sumas de cuadrados, una vez divididas por sus correspondientes grados de libertad, generan varianzas llamadas
\emph{Cuadrados Medios}, y el cociente de cuadrados medios (cuadrado medio inter dividido entre cuadrado medio intra) bajo la hipótesis nula
de igualdad de medias en todos los grupos sigue una distribución \emph{F} de Fisher que se puede utilizar para calcular un $p$-valor del
contraste de igualdad de medias. En el ANOVA de dos factores, en lugar de dos fuentes de variabilidad tenemos cuatro: una por el primer
factor, otra por el segundo, otra por la interacción y otra más que contempla la variabilidad residual o variabilidad intragrupos. En el
ejemplo anterior, las cuatro fuentes de variabilidad son:

\begin{enumerate}
\item La debida al primer factor: la dieta.
\item La debida al segundo factor: el fármaco.
\item La debida a la interacción entre ambos.
\item La residual.
\end{enumerate}

Las tres primeras fuentes de variabilidad llevan asociadas sus correspondientes sumas de cuadrados, similares a la suma de cuadrados inter
del ANOVA de una vía, mientras que la variabilidad residual lleva asociada su suma de cuadrados residual, similar a la suma de cuadrados
intra del ANOVA de una vía. Dividiendo las sumas de cuadrados entre sus respectivos grados de libertad se obtienen varianzas, que divididas
entre la varianza residual generan, bajo la hipótesis nula de igualdad de medias, valores \emph{f} de la distribución \emph{F} de Fisher que
pueden utilizarse para calcular el p-valor del correspondiente contraste.

Lo anterior se resume en forma de tabla de un ANOVA de dos vías, considerando un primer factor con $k_1$ niveles, un segundo factor con
$k_2$ niveles y un total de datos $n$. Si se denomina $F_1$ al primer factor, $F_2$ al segundo, $I$ a la interacción y $R$ al residual, la
tabla de un ANOVA de dos vías tiene la siguiente forma:
\[
\renewcommand{\arraystretch}{2}
\begin{array}{cccccc}
\hline
\text{Fuente} & \text{Suma Cuadrados} & \text {Grados Libertad} & \text{Cuadrados Medios} & \text{Estadístico $f$} & \text{$p$-valor}\\
\hline
F_1 & SF_1 & k_1-1 & CF_1=\frac{SF_1}{k_1-1} & f_1=\frac{CF_1}{CR} & P(F>f_1) \\
F_2 & SF_2 & k_2-1 & CF_2=\frac{SF_2}{k_2-1} & f_2=\frac{CF_2}{CR} & P(F>f_2) \\
\text{Interacción} & SI & (k_1-1)(k_2-1) & CI=\frac{SI}{(k_1-1)(k_2-1)} & f_I=\frac{CI}{CR} & P(F>f_I) \\
\text{Residual} & SR & n-k_1k_2 & CR=\frac{SR}{n-k_1k_2} &  &  \\
\hline
\text{Total} & ST & n-1 &  &  & 
\end{array}
\]

Una vez obtenida la tabla, habitualmente mediante un programa de estadística para evitar realizar la gran cantidad de cálculos que conlleva
(los distintos programas pueden proporcionar tablas ligeramente diferentes a la expuesta en esta práctica, en las que pueden aparecer filas
añadidas cuya interpretación dependerá del programa utilizado), el siguiente paso es la interpretación de los $p$-valores obtenidos en cada
uno de los factores y en la interacción. Para ello, resulta clave el $p$-valor de la interacción porque condicionará completamente el
análisis:
\begin{itemize}
\item Si la interacción no ha resultado significativa ($p$-valor de la interacción mayor que el nivel de significación, habitualmente
$0.05$), se puede considerar por separado la actuación de los dos factores y ver si hay o no diferencias significativas en sus niveles
atendiendo al $p$-valor que aparece en la tabla para cada uno de ellos. Por ejemplo, en la primera de las tablas del análisis de Kg perdidos
en función de la dieta y el fármaco, se obtendría que la interacción no es significativa, lo cual implicaría que habría que analizar el
efecto de los factores por separado. Para ello, se acudiría al $p$-valor del factor dieta y si es menor que el nivel de significación
fijado, entonces el factor dieta habría resultado significativo, lo cual quiere decir que habría diferencias significativas (más allá de las
asumibles por azar) entre los Kg perdidos por los individuos que hacen dieta y los que no; y todo ello, independientemente de si los
individuos están tomando o no el fármaco, ya que no hay una interacción significativa que ligue los resultados de la dieta con el fármaco.
Igualmente, con el factor fármaco, se acudiría a su $p$-valor y se vería si hay o no diferencias significativas entre los Kg perdidos por
los que toman el fármaco y los que no lo hacen, independientemente de si siguen o no la dieta.
\item Si la interacción ha resultado significativa ($p$-valor de la interacción menor que el nivel de significación, habitualmente $0.05$),
no se puede considerar por separado la actuación de los dos factores, la presencia de uno de los factores condiciona lo que sucede en el
otro y el análisis de diferencias debidas al segundo factor debe realizarse por separado dentro de cada uno de los niveles del primero; y a
la inversa, el análisis de diferencias debidas al primero debe realizarse por separado dentro de cada uno de los niveles del segundo. Por
ejemplo, en la segunda de las tablas del análisis de Kg perdidos en función de la dieta y el fármaco, muy probablemente se obtendría que la
interacción sí que es significativa, con lo cual no habría un único efecto del fármaco: en el grupo de los que no toman el fármaco, la
diferencia de Kg perdidos entre los que sí que hacen dieta y los que no  la hacen no sería la misma que en el grupo de los que sí que toman
el fármaco. E igualmente, tampoco habría un único efecto de la dieta: en el grupo de los que no hacen dieta, la diferencia de Kg perdidos
entre los que sí que toman el fármaco y los que no lo hacen no sería la misma que en el grupo de los que sí que hacen dieta.\end{itemize}
Una aclaración final importante es que en ningún caso un ANOVA de dos factores con dos niveles en cada vía equivale a hacer por separado una
T de Student de datos independientes en cada uno de los factores. Ni siquiera en el caso de que no haya interacción el $p$-valor que se
obtiene en cada uno de los dos factores coincide con el que se obtendría en la comparación de los niveles mediante la T de Student. El ANOVA
de dos factores es una técnica multivariante que cuantifica la influencia de cada una de las variables independientes en la variable
dependiente después de haber eliminado la parte de la variabilidad que se debe a las otras variables independientes que forman parte del
modelo. En el ejemplo de los Kg perdidos, no sería lo mismo analizar la influencia de la variable dieta después de eliminar la variabilidad
explicada mediante la variable fármaco e incluso la interacción entre dieta y fármaco, que es lo que haría el ANOVA de dos factores, que
analizar simplemente la influencia de la variable dieta sin más, o fármaco sin más, que es lo que podríamos hacer mediante una T de Student
de datos independientes. Tampoco el análisis de la interacción en el ANOVA de dos factores equivale a realizar un ANOVA de una vía
considerando una nueva variable independiente con cuatro categorías diferentes (1:Sí-Sí, 2:Sí-No, 3:No-Sí, 4:No-No), por el mismo motivo:
las conclusiones del ANOVA de dos vías hay que entenderlas en el contexto de una técnica multivariante en que la importancia de cada
variable independiente se obtiene después de eliminar de los datos la variabilidad debida a las demás.

\subsubsection{ANOVA de dos factores con tres o más niveles en algún factor}
El planteamiento y resolución de un ANOVA de dos factores con tres o más niveles en algún factor es muy parecido al ya expuesto de dos
niveles en cada factor. Únicamente cambian ligeramente las hipótesis nulas planteadas en los factores en las que habría que incluir la
igualdad de tantas medias como niveles tenga el factor analizado, y las alternativas en las que se supone que alguna de las medias es
diferente. En cuanto a las interacciones, también se contemplarían diferencias de medias pero teniendo en cuenta que hay más diferencias
posibles al tener más niveles dentro de cada factor.

En cuanto a la interpretación final de los resultados de la tabla del ANOVA, si no hay interacción y sin embargo hay diferencias
significativas en cualquiera de los factores con 3 o más niveles, el siguiente paso sería ver entre qué medias se dan esas diferencias. Por
ejemplo, si no hay interacción y se ha rechazado la hipótesis nula de igualdad de medias entre los tres niveles del factor 1, habría que ver
si esas diferencias aparecen entre los niveles 1 y 2, o entre el 1 y 3, e incluso entre el 2 y el 3, independientemente del factor 2; e
igualmente con el factor 2. Para poder ver entre qué niveles hay diferencias, habría que realizar \emph{Test de Comparaciones Múltiples y
por Parejas}; por ejemplo un test de Bonferroni o cualquier otro de los vistos en la práctica de ANOVA de una vía. Si la interacción saliese
significativa, habría que hacer lo mismo pero considerando las posibles diferencias entre los 3 niveles del factor 1 dentro de cada nivel
del factor 2 y viceversa.

Como ya se ha comentado para el ANOVA de dos factores con dos niveles en cada factor y la T de Student de datos independientes, igualmente
el ANOVA de dos factores con tres o más niveles en algún factor no equivale a dos ANOVAS de una vía. El $p$-valor que se obtiene en el de
dos factores no es el mismo que que se obtendría en los ANOVAS de una vía realizados teniendo en cuenta cada uno de los factores por
separado, incluso si la interacción no es significativa.

\subsubsection{ANOVA de tres o más factores}
Aunque los fundamentos del ANOVA de tres o más factores son muy parecidos a los de dos y la tabla obtenida es muy similar, la complejidad en
la interpretación sube un escalón. Por ejemplo, en un ANOVA de tres factores la tabla presentaría los tres efectos de cada uno de los
factores por separado, las tres interacciones dobles (1 con 2, 1 con 3 y 2 con 3), e incluso también podría mostrar la interacción triple
(los programas de estadística permiten considerar o no las interacciones de cualquier orden). Si la interacción triple fuese significativa,
entonces no se podría hablar del efecto general del factor 1, sino que habría que analizar el efecto del factor 1 dentro de cada nivel del 2
y a su vez dentro de cada nivel del 3, y así sucesivamente. Si la interacción triple no fuese significativa pero sí que lo fuese la del
factor 1 con el 2, entonces habría que analizar el efecto del factor 1 dentro de cada uno de los niveles del 2 pero independientemente del
factor 3. Y así hasta completar un conjunto muy grande de análisis posibles y de Test de Comparaciones Múltiples aplicados. No obstante, es
el propio experimentador el que debe limitar el conjunto de análisis a realizar con un planteamiento muy claro del experimento, reduciendo
en la medida de lo posible el número de factores considerados y teniendo claro que no merece la pena considerar interacciones triples, o de
órdenes superiores, si no hay forma clara de interpretar su resultado.

En ningún caso un ANOVA de tres o más factores equivale a tres ANOVAS de una vía realizados teniendo en cuenta los factores considerados por
separado.

\subsubsection{Factores fijos y Factores aleatorios}
A la hora de realizar un ANOVA de varios factores, el tratamiento de la variabilidad debida a cada uno de ellos y también las conclusiones
que se pueden obtener después de realizarlo, son diferentes dependiendo de que los factores sean fijos o aleatorios.

Se entiende como \emph{Factor Fijo o Factor de Efectos Fijos} aquel cuyos niveles los establece, los fija de antemano, el investigador (por
ejemplo, cantidades concretas de fármaco o de tiempo transcurrido), o vienen dados por la propia naturaleza del factor (por ejemplo, el sexo
o la dieta). Su variabilidad es más fácil de controlar y también resulta más sencillo su tratamiento en los cálculos que hay que hacer para
llegar a la tabla final del ANOVA, pero tienen el problema de que los niveles concretos que toma el factor constituyen la población de
niveles sobre los que se hace inferencia. Es decir, no se pueden sacar conclusiones poblacionales que no se refieran a esos niveles fijos
con los que se ha trabajado.

Por contra, un \emph{Factor Aleatorio o Factor de Efectos Aleatorios} es aquel cuyos niveles son seleccionados de forma aleatoria entre
todos los posibles niveles del factor (por ejemplo, cantidad de fármaco, con niveles 23 mg, 132 mg y 245 mg, obtenidos al escoger 3 niveles
de forma aleatoria entre 0 y 250 mg). Su tratamiento es más complicado, pero al constituir una muestra aleatoria de niveles, se pretende
sacar conclusiones extrapolables a todos los niveles posibles.

\subsubsection{Supuestos del modelo de ANOVA de dos o más vías}
Como ya sucedía con el ANOVA de una vía, el de dos o más vías es un test paramétrico que supone que:
\begin{itemize}
\item Los qdatos deben seguir distribuciones normales dentro de cada categoría, entendiendo por categorías todas las que se forman del cruce
de todos los niveles de todos los factores. Por ejemplo, en un ANOVA de 2 factores con 3 niveles en cada factor, se tienen $3^2$ categorías
diferentes.
\item Todas las distribuciones normales deben tener igualdad de varianzas (homocedasticidad).
\end{itemize}

Cuando no se cumplen las condiciones anteriores y además las muestras son pequeñas, no se debería aplicar el ANOVA de dos o más vías, con el
problema añadido de que no hay un test no paramétrico que lo sustituya. Mediante test no paramétricos (sobre todo mediante el test de
Kruskall-Wallis) se podría controlar la influencia de cada uno de los factores por separado en los datos, pero nunca el importantísimo papel
de la interacción.
\subsection{ANOVA de medidas repetidas}

\subsubsection{Concepto de ANOVA de medidas repetidas}
En muchos problemas se cuantifica el valor de una variable dependiente en varias ocasiones en el mismo sujeto (por ejemplo: en un grupo de
individuos que están siguiendo una misma dieta, se puede anotar el peso perdido al cabo de un mes, al cabo de dos y al cabo de tres), y se
intenta comparar la media de esa variable en las diferentes ocasiones en que se ha medido, es decir, ver si ha habido una evolución de la
variable a lo largo de las diferentes medidas (en el ejemplo anterior, una evolución del peso perdido). Conceptualmente es una situación
análoga a la estudiada al comparar dos medias con datos emparejados mediante una T de Student de datos emparejados, o su correspondiente no
paramétrico, el test de Wilcoxon, pero ahora hay más de dos medidas emparejadas, realizadas en el mismo individuo. En estas situaciones se
utiliza el ANOVA de medidas repetidas.

El ANOVA de medidas repetidas, como también sucede con cualquier otro test que utilice datos emparejados, tiene la ventaja de que las
comparaciones que se realizan están basadas en lo que sucede dentro de cada sujeto (intra-sujetos), lo cual reduce el ruido o variabilidad
que se produce en comparaciones entre diferentes grupos de sujetos. Por ejemplo, en el estudio sobre la evolución del peso perdido con
personas que siguen la misma dieta, se podría haber cuantificado la variable al cabo de uno, dos y tres meses, pero en tres grupos
diferentes que hubiesen seguido la misma dieta, pero con este diseño del estudio no se controlan otras variables que pueden influir en el
resultado final, por ejemplo el sexo, la edad, o la cantidad de ejercicio que se hace al día. Dicho de otra forma, en el diseño con grupos
independientes es posible que alguno de los grupos tenga una media de edad superior, o no haya igual número de hombres que de mujeres, y
todo ello tener su reflejo en el número de Kg perdidos. Mientras que, con el diseño de datos emparejados, la segunda medida se compara con
la primera que también se ha realizado en la misma persona, y por lo tanto es igual su sexo, su edad y la cantidad de deporte que realiza; y
así con todas las demás medidas que se comparan entre sí pero dentro del mismo individuo. Eso permite controlar la variabilidad y detectar
pequeñas diferencias que de otra forma serían indetectables.
\subsubsection{ANOVA de medidas repetidas como ANOVA de dos vías sin interacción}
El ANOVA de medidas repetidas puede realizarse como un ANOVA de dos vías sin interacción sin más que realizar los cálculos oportunos
introduciendo adecuadamente los datos en un programa estadístico.

En la situación de partida, si suponemos que tenemos $k$ medidas emparejadas de una variable dependiente numérica y $n$ individuos en los
que hemos tomado las medidas, los datos se pueden organizar como aparecen en la tabla siguientes:
\[
\begin{array}{|c|c|c|c|c|}
\cline{2-5}
\multicolumn{1}{c|}{} & \text{Medida 1} & \text{Medida 2} & \ldots & \text{Medida $k$} \\
\hline
\text{Individuo 1} & x_{1,1} & x_{1,2} & \cdots & x_{1,k} \\
\hline
\text{Individuo 2} & x_{2,1} & x_{2,2} & \cdots & x_{2,k} \\
\hline
\vdots & \vdots & \vdots & \ddots & \vdots\\
\hline
\text{Individuo $n$} & x_{n,1} & x_{n,2} & \cdots & x_{n,k} \\
\hline
\end{array}
\]

Pero esos mismos datos también se pueden ordenar en un formato de tabla mucho más conveniente para poderles aplicar un ANOVA de dos vías:

\[
\begin{array}{|l|c|c|c|}
\cline{2-4}
\multicolumn{1}{c|}{} & \text{Variable Dependiente} & \text{Individuo} & \text{Medida} \\
\hline
\text{Fila 1} & x_{1,1} & 1 & 1 \\
\hline
\text{Fila 2} & x_{2,1} & 2 & 1 \\
\hline
\vdots & \vdots & \vdots & \vdots \\
\hline
\text{Fila $n$} & x_{n,1} & n & 1 \\
\hline
\text{Fila $n+1$} & x_{1,2} & 1 & 2 \\
\hline
\text{Fila $n+2$} & x_{2,2} & 2 & 2 \\
\hline
\vdots & \vdots & \vdots & \vdots \\
\hline
\text{Fila $2n$} & x_{n,2} & n & 2 \\
\hline
\vdots & \vdots & \vdots & \vdots \\
\hline
\text{Fila $(k-1)n+1$} & x_{1,k} & 1 & k \\
\hline
\text{Fila $(k-1)n+2$} & x_{2,k} & 2 & k \\
\hline
\vdots & \vdots & \vdots & \vdots \\
\hline
\text{Fila $kn$} & x_{n,k} & n & k \\
\hline
\end{array}
\]

Con ello, tanto Individuo como Medida son variables categóricas que dividen la muestra total ($n\cdot k$ datos de la variable dependiente)
en grupos: $n$ grupos en la variable Individuo y $k$ grupos en la variable Medida. Además, considerando el cruce de ambas variables (Medida
x Individuo) se forman $n\cdot k$ grupos con un único dato de la variable dependiente en cada grupo.

Para explicar la variabilidad de los datos de la variable dependiente cuantitativa se pueden considerar tres fuentes: la debida a la
variable Medida, la debida a la variable Individuo, y la residual. Ahora no cabe hablar de la variabilidad debida a la interacción entre
Medida e Individuo ya que los grupos que surgen del cruce de los dos factores sólo tienen un dato y no es viable calcular medias y
dispersiones dentro de un grupo con un único dato. Y el análisis de la influencia de cada uno de los factores se realiza mediante un ANOVA
de dos factores sin interacción, que genera la siguiente tabla:

\[
\renewcommand{\arraystretch}{2}
\begin{array}{cccccc}
\hline
\text{Fuente} & \text{Suma Cuadrados} & \text {Grados Libertad} & \text{Cuadrados Medios} & \text{Estadístico $f$} & \text{$p$-valor}\\
\hline
F_1=\text{Medida} & SF_1 & k-1 & CF_1=\frac{SF_1}{k-1} & f_1=\frac{CF_1}{CR} & P(F>f_1) \\
F_2=\text{Individuo} & SF_2 & n-1 & CF_2=\frac{SF_2}{n-1} & f_2=\frac{CF_2}{CR} & P(F>f_2) \\
\text{Residual} & SR & nk-n-k+1 & CR=\frac{SR}{nk-n-k+1} &  &  \\
\hline
\text{Total} & ST & n-1 &  &  & 
\end{array}
\]
Y permite dar respuesta a los siguientes contrastes:

\begin{enumerate}
\item En la variable Medida:
\begin{align*}
H_0&: \mu_{\text{Medida 1}}=\mu_{\text{Medida 2}}=...=\mu_{\text{Medida k}}\\
H_1&: \text{Alguna de las medias es diferente.}
\end{align*}

Si el $p$-valor obtenido es menor que el nivel de significación fijado querrá decir que alguna de las medias es significativamente diferente del resto. Este es el contraste más importante del ANOVA de medidas repetidas y supone que la variabilidad dentro de cada individuo (intra-sujeto) es lo suficientemente grande como para que se descarte el azar como su causa. Por lo tanto la variable Medida ha tenido un efecto significativo.

\item En la variable Individuo:
\begin{align*}
H_0&: \mu_{\text{Individuo 1}}=\mu_{\text{Individuo 2}}=...=\mu_{\text{Individuo n}}\\
H_1&: \text{Alguna de las medias es diferente.}
\end{align*}

Si el $p$-valor obtenido es menor que el nivel de significación fijado querrá decir que alguna de las medias es significativamente diferente del resto, y por lo tanto alguno de los individuos analizados ha tenido un comportamiento en la variable dependiente diferente del resto. En realidad no es un contraste importante en el ANOVA de medidas repetidas ya que supone un análisis de la variabilidad entre individuos (inter-sujetos), pero es muy difícil que en un experimento dado esta variabilidad no esté presente.
\end{enumerate}

Si la conclusión del ANOVA es que hay que rechazar alguna de las dos hipótesis nulas, ya sea la de igualdad de medias en los grupos formados
por la variable Medida o la de igualdad de medias en los grupos formados por la variable Individuo, entonces en el siguiente paso se podría
aplicar un Test de Comparaciones Múltiples y por Parejas, por ejemplo un test de Bonferroni, para ver qué medias son diferentes,
especialmente para ver entre qué niveles del la variable Medida se dan las diferencias.

\subsubsection{Supuestos del ANOVA de medidas repetidas}
Como en cualquier otro ANOVA, en el de medidas repetidas se exige que:

\begin{itemize}
\item Los datos de la variable dependiente deben seguir distribuciones normales dentro de cada grupo, ya sea formado por la variable Medida
o por la variable Individuo. Como el contraste más importante se realiza en la variable Medida, resultará especialmente importante que sean
normales las distribuciones de todas las Medidas .
\item Todas las distribuciones normales deben tener igualdad de varianzas (homocedasticidad), especialmente las de las diferentes Medidas.
\end{itemize}

Cuando en un ANOVA de medidas repetidas se cumple la normalidad y la homocedasticidad de todas las distribuciones se dice que se cumple la
\emph{Esfericidad} de los datos, y hay tests estadísticos especialmente diseñados para contrastar la esfericidad como la \emph{prueba de
Mauchly}.

Cuando no se cumplen las condiciones anteriores y además las muestras son pequeñas, no se debería aplicar el ANOVA de medidas repetidas,
pero al menos sí que hay una prueba no paramétrica que permite realizar el contraste de si hay o no diferencias significativas entre los
distintos niveles de la variable Medida, que es el \emph{test de Friedman}.

\subsection{ANOVA de medidas repetidas + ANOVA de una o más vías}
No son pocos los problemas en los que, además de analizar el efecto intra-sujetos en una variable dependiente cuantitativa medida varias
veces en los mismos individuos para el que cabría plantear un ANOVA de medidas repetidas, también aparecen variables cualitativas que se
piensa que pueden estar relacionadas con la variable dependiente. Estas últimas variables introducen un efecto que aunque habitualmente es
catalogado como inter-sujetos más bien se trataría de un efecto inter-grupos, ya que permiten definir grupos entre los que se podría
plantear un ANOVA de una o más vías. Por ejemplo, se podría analizar la pérdida de peso en una muestra de individuos al cabo de uno, dos y
tres meses de tratamiento (ANOVA de medidas repetidas), pero teniendo en cuenta que los individuos de la muestra han sido divididos en seis
grupos que se forman por el cruce de dos factores, Dieta y Ejercicio, con tres dietas diferentes: a, b y c, y dos niveles de ejercicio
físico diferentes: bajo y alto. Para analizar la influencia de estos dos factores inter-sujetos, habría que plantear un ANOVA de dos vías
con interacción. Para un ejemplo como el comentado, aunque los datos podrían disponerse de una forma similar a la que permite realizar el
ANOVA de medidas repetidas como un ANOVA de dos factores (variables Medida e Individuo), y añadirle dos factores más (Dieta y Ejercicio), no
resulta cómodo tener que introducir en la matriz de datos varias filas para un mismo individuo (tantas como medidas repetidas diferentes se
hayan realizado). Por ello, determinados programas de estadística, como PASW, permiten realizar ANOVAS de medidas repetidas introduciendo
los datos en el formato clásico, una fila para cada individuo y una variable para cada una de las medidas repetidas, definiendo factores
intra-sujeto que en realidad estarían compuestos por todas las variables que forman parte de las medidas repetidas. Además, a los factores
intra-sujeto permiten añadirle nuevos factores inter-sujeto (categorías) que pueden influir en las variables respuesta (las diferentes
medidas), e incluso comprobar si hay o no interacción entre los factores inter-sujeto entre sí y con los factores intra-sujeto. Por lo
tanto, son procedimientos que realizan a la vez un ANOVA de medidas repetidas y un ANOVA de una o más vías, con la ventaja de que se pueden
introducir los datos en la forma clásica: una fila para cada individuo.

El resultado de la aplicación de estos procedimientos es muy parecido a los comentados en apartados previos: se generan tablas de ANOVA en
las que se calcula un $p$-valor para cada uno de los factores, ya sean intra-sujeto (medidas repetidas) o inter-sujeto (categorías), y
también para la interacción, ya sea de los factores inter-sujeto entre sí o de factores inter-sujeto con los intra-sujeto.

\clearpage
\newpage


\section{Ejercicios resueltos}
\begin{enumerate}[leftmargin=*]
\item En un estudio diseñado para analizar la influencia de un tipo de dieta y de un fármaco en el peso corporal perdido, expresado en Kg,
se ha anotado el número de Kg perdidos en un grupo de personas al cabo de 3 meses de dieta y de tomar el fármaco, obteniendo los siguientes
resultados (si algún individuo presenta un dato negativo significa que en lugar de perder Kg de peso los ha ganado):
\[
\begin{array}{|l|c|c|}
\cline{2-3}
\multicolumn{1}{l|}{} & \text{Fármaco NO} & \text{Fármaco SÍ} \\
\hline
\text{Dieta NO} & 1.5; 0.5; 0.0; -1.0; -1.0 & 6.5; 5.0; 7.0; 3.0; 4.5; 4.0 \\
\hline
\text{Dieta SÍ} & 3.5; 3.0; 4.0; 2.5; 2.0 & 9.5; 8.0; 7.5; 7.0; 8.5; 7.5 \\
\hline
\end{array}
\]

\begin{enumerate}
\item Crear un conjunto de datos con las variables \variable{kilos\_perdidos}, \variable{dieta} y \variable{farmaco}.

\item Mostrar el gráfico de medias de los kilos perdidos para los distintos grupos según la dieta y el fármaco. ¿Qué conclusiones
cualitativas pueden sacarse del gráfico obtenido? 
\begin{indicacion}{ 
\begin{enumerate}
\item Seleccionar el menú \menu{Gráficas\flecha Gráfica de las medias}.
\item En el cuadro de diálogo que aparece seleccionar la variable \variable{kilos\_perdidos} como \campo{Variable explicada}, las variables
\variable{dieta} y \variable{farmaco} como \campo{Factores}, seleccionar la opción \opcion{Sin barra de errores} y hacer click sobre el
botón \boton{Aceptar}.
\end{enumerate}

Se observa claramente que no hay interacción (líneas paralelas), que los dos puntos del grupo de los que no hacen dieta están por debajo de
los que sí que la hacen, lo cual hace sospechar que el factor dieta será significativo, e igualmente los dos puntos de los que no toman
fármaco están por debajo de los que sí que lo toman, lo cual hace sospechar que el factor fármaco también será significativo. }
\end{indicacion}  

\item Realizar un contraste de ANOVA de dos vías con los datos e interpretar la tabla de ANOVA obtenida.
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \texttt{Estadísticos->Medias->ANOVA de múltiples factores}.
\item En el cuadro de diálogo que aparece, seleccionar la variable \variable{kilos\_perdidos} como \campo{Variable explicada} y las
variables \variable{dieta} y \variable{farmaco} como \campo{Factores}, introducir un nombre para el modelo y hacer click sobre el botón
\boton{Aceptar}.
\end{enumerate}

Para la interpretación de la tabla de ANOVA, prestar especial atención a las siguientes líneas de la tabla:
\begin{enumerate}
\item \resultado{dieta}: muestra si la dieta resulta o no significativa para explicar la variabilidad del peso perdido.
\item \resultado{farmaco}: muestra si el fármaco resulta o no significativo.
\item \resultado{dieta:farmaco}: muestra si la interacción de dieta y fármaco resulta o no significativa.
\end{enumerate}
Una conclusión muy importante a la luz de los resultados es que no hay una interacción significativa entre dieta y fármaco, es decir que el
efecto del fármaco no dependerá de si una persona toma o no dieta, y a la inversa, que el efecto de la dieta no dependerá de si se toma o no
fármaco.
}
\end{indicacion}

\item Calcular las medias y desviaciones típicas de los Kg perdidos en todos los grupos.
\begin{indicacion}{
El procedimiento anterior para obtener el contraste de ANOVA también muestra las medias y desviaciones típicas para cada grupo.
}
\end{indicacion}

\item Teniendo en cuenta que no hay interacción significativa, calcular el intervalo de confianza para la diferencia de medias en los kg
perdidos según la variable dieta e igualmente con la variable fármaco.\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \texttt{Estadísticos->Medias->ANOVA de múltiples factores}.
\item En el cuadro de diálogo que aparece, seleccionar la variable \variable{kilos\_perdidos} como \campo{Variable explicada} y las
variables \variable{dieta} y \variable{farmaco} como \campo{Factores}, seleccionar la opción \opcion{Intervalos de comparación de medias de
Tukey}, introducir un nombre para el modelo y hacer click sobre el botón \boton{Aceptar}. 
\end{enumerate}
}
\end{indicacion}
\end{enumerate}


\item En un estudio diseñado para analizar la influencia de un tipo de dieta y de un fármaco en el peso corporal perdido, expresado en Kg,
se ha anotado el número de Kg perdidos en un grupo de personas al cabo de 3 meses de dieta y de tomar el fármaco, obteniendo los siguientes
resultados (si algún individuo presenta un dato negativo significa que en lugar de perder Kg de peso los ha ganado): 

\[
\begin{array}{|l|c|c|}
\cline{2-3}
\multicolumn{1}{l|}{} & \text{Fármaco NO} & \text{Fármaco SÍ} \\
\hline
\text{Dieta NO} & 1.5; 0.5; 0.0; -1.0; -1.0 & 6.5; 5.0; 7.0; 3.0; 4.5; 4.0 \\
\hline
\text{Dieta SÍ} & 3.5; 3.0; 4.0; 2.5; 2.0 & 12.5; 12.0; 11.5; 13.5; 12.5; 10.0 \\
\hline
\end{array}
\]
\begin{enumerate}
\item Crear un conjunto de datos con las variables \variable{kilos\_perdidos}, \variable{dieta} y \variable{farmaco}.

\item Mostrar el gráfico de medias de los kilos perdidos para los distintos grupos según la dieta y el fármaco. ¿Qué conclusiones
cualitativas pueden sacarse del gráfico obtenido? 
\begin{indicacion}{ 
\begin{enumerate}
\item Seleccionar el menú \menu{Gráficas\flecha Gráfica de las medias}.
\item En el cuadro de diálogo que aparece seleccionar la variable \variable{kilos\_perdidos} como \campo{Variable explicada}, las variables
\variable{dieta} y \variable{farmaco} como \campo{Factores}, seleccionar la opción \opcion{Sin barra de errores} y hacer click sobre el
botón \boton{Aceptar}.
\end{enumerate}

Ahora se observa claramente que hay interacción (líneas no paralelas), que los dos puntos del grupo de los que no
hacen dieta están por debajo de los que sí que la hacen, lo cual hace sospechar que el factor dieta será significativo, e igualmente los dos
puntos de los que no toman fármaco están por debajo de los que sí que lo toman, lo cual hace sospechar que el factor fármaco también será
significativo. 
}
\end{indicacion}  

\item Realizar un contraste de ANOVA de dos vías con los datos e interpretar la tabla de ANOVA obtenida. ¿Hay interacción significativa?
¿Cómo se interpretaría? \begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \texttt{Estadísticos->Medias->ANOVA de múltiples factores}.
\item En el cuadro de diálogo que aparece, seleccionar la variable \variable{kilos\_perdidos} como \campo{Variable explicada} y las
variables \variable{dieta} y \variable{farmaco} como \campo{Factores}, introducir un nombre para el modelo y hacer click sobre el botón
\boton{Aceptar}.
\end{enumerate}

Ahora puede concluirse que sí hay interacción significativa, y eso implica que no hay la misma diferencia en Kg perdidos entre los que
hacen dieta y los que no si consideramos el grupo de los que no toman fármaco, que si consideramos el grupo de los que sí lo toman.}
\end{indicacion}

\item Teniendo en cuenta que hay interacción significativa, calcular el intervalo de confianza para la diferencia de medias en los kg
perdidos según la variable dieta y fármaco, así como entre los grupos que surgen de su interacción.
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \texttt{Estadísticos->Medias->ANOVA de múltiples factores}.
\item En el cuadro de diálogo que aparece, seleccionar la variable \variable{kilos\_perdidos} como \campo{Variable explicada} y las
variables \variable{dieta} y \variable{farmaco} como \campo{Factores}, seleccionar la opción \opcion{Intervalos de comparación de medias de
Tukey}, introducir un nombre para el modelo y hacer click sobre el botón \boton{Aceptar}.
\end{enumerate}
}
\end{indicacion}
\end{enumerate}


\item Se ha realizado un experimento que consiste en que se ha anotado el tiempo, en días, que han tardado en contestar correctamente a un
cuestionario 30 personas, 15 hombres y 15 mujeres, distribuidos en grupos que han seguido tres métodos diferentes de aprendizaje de la
materia del cuestionario. Los resultados aparecen en la siguiente tabla:
\begin{center}
\begin{tabular}{|c|c|c|c|}
\cline{2-4}
\multicolumn{1}{c|}{} & Método a & Método b & Método c\\
\hline
Hombre & 15, 16, 18, 19, 14 & 25, 27, 28, 23, 29 & 21, 22, 18, 17, 20 \\
\hline
Mujer & 24, 27, 29, 25, 23 & 17, 15, 13, 16, 18 & 20, 19, 22, 17, 23 \\
\hline
\end{tabular}
\end{center}

\begin{enumerate}
\item Crear un conjunto de datos con las variables \variable{sexo}, \variable{método} y \variable{días}.

\item Mostrar el gráfico de medias de los del tiempo de aprendizaje para los distintos grupos según el sexo y el método de aprendizaje. ¿Qué
se puede decir de la interacción de las variables ?\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \menu{Gráficas\flecha Gráfica de las medias}.
\item En el cuadro de diálogo que aparece seleccionar la variable \variable{días} como \campo{Variable explicada}, las
variables \variable{método} y \variable{sexo} como \campo{Factores}, seleccionar la opción \opcion{Sin barra de errores} y hacer click
sobre el botón \boton{Aceptar}.
\end{enumerate}
Es evidente que las líneas se cruzan, lo cual indica que hay interacción.
}
\end{indicacion}

\item Realizar un contraste de ANOVA de dos vías con interacción e interpretar los resultados.
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \texttt{Estadísticos->Medias->ANOVA de múltiples factores}.
\item En el cuadro de diálogo que aparece, seleccionar la variable \variable{días} como \campo{Variable explicada} y las
variables \variable{sexo} y \variable{método} como \campo{Factores}, introducir un nombre para el modelo y hacer click sobre el botón
\boton{Aceptar}.
\end{enumerate}
Se puede observar que no hay diferencias significativas asociadas al sexo ni al método. Sin embargo sí que hay interacción, es decir la
diferencia en el tiempo de respuesta entre hombres y mujeres depende del método seguido, e igualmente las diferencias entre los tiempos de
respuesta según los diferentes métodos dependen del sexo.
}
\end{indicacion}

\item Calcular los intervalos de confianza para la diferencia de medias en el tiempo de aprendizaje entre los grupos que surgen de la
interacción del sexo con el método de aprendizaje. 
\begin{indicacion}{
Repetir los pasos del apartado anterior pero seleccionando la opción \opcion{Intervalos de comparación de medias de Tukey}.
}
\end{indicacion}
\end{enumerate}


\item Se desea comparar la rapidez con la que aparece el efecto de tres nuevos agentes repigmentadores: $A$, $B$ y $C$. Con esta intención,
se aplican de manera tópica dosis equivalentes de los tres repigmentadores en zonas de la piel con pérdida total de pigmentación en los mismos
ocho pacientes con vitíligo. A continuación, se recoge el tiempo, en días, que tardan en aparecer los primeros signos de repigmentación:
\begin{center}
\begin{tabular}{rrr}
\hline
$A$ & $B$ & $C$ \\
\hline
19 & 3 & 31 \\
11 & 2 & 9 \\
7 & 4 & 16 \\
4 & 1 & 6 \\
3 & 2 & 8 \\
5 & 7 & 18 \\
7 & 1 & 5 \\
4 & 3 & 9 \\
\hline
\end{tabular}
\end{center}

\begin{enumerate}
\item Crear un conjunto de datos con las variables \variable{individuo}, \variable{tiempo} y \variable{repigmentador}.
\begin{indicacion}{Aunque todos los repigmentadores se aplican a cada individuo, para hacer un ANOVA de medidas repetidas hay que introducir
el individuo como el factor inter-sujetos, mientras que el repigmentador sería el factor-intrasujetos}. Si los datos de la variable
individuo se introducen como números, es preciso convertirla en un factor:
\begin{enumerate}
\item Seleccionar el menú \menu{Datos\flecha Modificar variables del conjunto de datos activo\flecha Convertir variable numérica en factor}.
\item En el cuadro de diálogo que aparece seleccionar la variable \variable{individuo}, activar la opción \opcion{Utilizar números} y hacer
click en el botón \boton{Acetar}.
\item En la ventana que aparece preguntando si se desea sobreescribir la variable hacer click en el botón \boton{Si}.
\end{enumerate}
\end{indicacion} 

\item Realizar un ANOVA de medidas repetidas e interpretar el resultado obtenido. 
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \menu{Medias\flecha ANOVA de medidas repetidas}.
\item En el cuadro de diálogo que aparece, seleccionar como variable explicada el \variable{tiempo}, como factor la variable
\variable{individuo} y como grupos la variable \variable{repigmentador}, darle un nombre al modelo y hacer click en el botón
\boton{Aceptar}.
\end{enumerate}
}
\end{indicacion}

\item ¿Entre qué medidas del tratamiento repigmentador se dan diferencias estadísticamente significativas?

\begin{indicacion}{
Repetir los pasos del apartado anterior pero seleccionando la opción \opcion{Intervalos de comparación de medias de Tukey}.
}
\end{indicacion}

\end{enumerate}

\end{enumerate}


\section{Ejercicios propuestos}
\begin{enumerate}[leftmargin=*]

\item En un estudio se quiere analizar la influencia sobre la ansiedad social, cuantificada mediante una escala numérica que va de 0 a 10, de la edad, dividida en tres categorías, y si se fuma o no. Los datos obtenidos fueron:

\[
\begin{array}{|l|c|c|}
\cline{2-3}
\multicolumn{1}{c|}{} & \text{Fumar No} & \text{Fumar Sí} \\
\hline
\text{Edad 1} & 3.91; 5.01; 4.47; 3.33; 4.71 & 4.83; 3.95; 4.04; 3.66; 9.44 \\
\hline
\text{Edad 2} & 5.65; 6.49; 5.50; 5.72; 5.44 & 9.66; 7.68; 9.57; 7.98; 7.39 \\
\hline
\text{Edad 3} & 4.94; 7.13; 5.54;5.94; 6.16 & 5.92; 5.48; 5.19; 6.12; 4.45 \\
\hline
\end{array}
\]

\begin{enumerate}
\item Considerando la posibilidad de interacción entre las variables independientes, ¿se puede considerar que la edad, expresada en forma de
categorías, influye en la ansiedad? ¿Y el fumar? ¿Se puede considerar que el fumar o no influye de forma diferente en la ansiedad
dependiendo de la categoría de edad analizada?
\item Dependiendo de los resultados del apartado anterior, ¿entre qué medias habría diferencias estadísticamente significativas? Calcular
los intervalos de confianza para las diferencias.
\end{enumerate}


\item En un estudio se quiere analizar la eficacia de dos tipos de entrenamiento (A1: entrenamiento sólo físico, A2: entrenamiento físico + entrenamiento psicológico) para mejorar el rendimiento físico. Para ello, se dispone de una muestra de 8 individuos con los que se generan dos grupos de 4 asignados aleatoriamente, y se mide su rendimiento físico mediante un test de rendimiento numérico que va de 0 a 15 puntos. Los 8 individuos son sometidos al test en 4 momentos diferentes (B1: al cabo de una semana de entrenamiento, B2: al cabo de dos, B3: al cabo de tres y B4: al cabo de 4). Los datos obtenidos fueron:

\begin{center}
\begin{tabular}{|l|l|l|l|l|}
\cline{2-5}
\multicolumn{1}{c|}{} & \multicolumn{1}{c|}{B1} & \multicolumn{1}{c|}{B2} & \multicolumn{1}{c|}{B3} & \multicolumn{1}{c|}{B4} \\
\hline
\multicolumn{1}{|c|}{A1} & \multicolumn{1}{c|}{3} & \multicolumn{1}{c|}{4} & \multicolumn{1}{c|}{7} & \multicolumn{1}{c|}{7} \\
\cline{2-5}
\multicolumn{1}{|c|}{} & \multicolumn{1}{c|}{6} & \multicolumn{1}{c|}{5} & \multicolumn{1}{c|}{8} & \multicolumn{1}{c|}{8} \\
\cline{2-5}
\multicolumn{1}{|c|}{} & \multicolumn{1}{c|}{3} & \multicolumn{1}{c|}{4} & \multicolumn{1}{c|}{7} & \multicolumn{1}{c|}{9} \\
\cline{2-5}
\multicolumn{1}{|c|}{} & \multicolumn{1}{c|}{3} & \multicolumn{1}{c|}{3} & \multicolumn{1}{c|}{6} & \multicolumn{1}{c|}{8} \\
\hline
\multicolumn{1}{|c|}{A2} & \multicolumn{1}{c|}{1} & \multicolumn{1}{c|}{2} & \multicolumn{1}{c|}{5} & \multicolumn{1}{c|}{10} \\
\cline{2-5}
\multicolumn{1}{|c|}{} & \multicolumn{1}{c|}{2} & \multicolumn{1}{c|}{3} & \multicolumn{1}{c|}{6} & \multicolumn{1}{c|}{10} \\
\cline{2-5}
\multicolumn{1}{|c|}{} & \multicolumn{1}{c|}{2} & \multicolumn{1}{c|}{4} & \multicolumn{1}{c|}{5} & \multicolumn{1}{c|}{9} \\
\cline{2-5}
\multicolumn{1}{|c|}{} & \multicolumn{1}{c|}{2} & \multicolumn{1}{c|}{3} & \multicolumn{1}{c|}{6} & \multicolumn{1}{c|}{11} \\
\hline
\end{tabular}

\end{center}

\begin{enumerate}

\item ¿Influye significativamente la semana en la que se realiza el test en el resultado? ¿Y el tipo de entrenamiento? ¿Es significativa la interacción entre tipo de entrenamiento y la semana en la que se realiza el test?

\item Entre qué medias hay diferencias estadísticamente significativas? Calcular los intervalos de confianza para las medias y para las diferencias.

\end{enumerate}

\item Se ha aplicado un dispositivo electrónico que mide la frecuencia cardíaca a 10 estudiantes. Se realizó una primera medición un minuto
antes de que comenzasen a hacer un examen, la segunda medición se hizo cuando llevaban 15 minutos realizando el examen, la tercera un minuto
después de entregarlo y la cuarta 15 minutos después de terminar. Los resultados fueron:

\begin{center}
\begin{tabular}{ccccc}
\hline
Estudiante & Medida1 & Medida2 & Medida3 & Medida4 \\
\hline
1 & 57 & 61 & 77 & 70 \\
2 & 73 & 87 & 88 & 83 \\
3 & 75 & 89 & 89 & 65 \\
4 & 75 & 60 & 67 & 68 \\
5 & 77 & 87 & 67 & 67 \\
6 & 88 & 96 & 84 & 55 \\
7 & 89 & 65 & 89 & 60 \\
8 & 101 & 80 & 77 & 60 \\
9 & 103 & 85 & 76 & 66 \\
10 & 107 & 73 & 69 & 60 \\
\hline
\end{tabular}
\end{center}

¿Son las mediciones significativamente distintas entre sí? Si hay diferencia, ¿entre qué mediciones se dan?

\end{enumerate}

